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言 息 检索 研究 现状 简 述 


王 斌 李鹏 


摘要 : 近年 来 ， 一 方面 ， 信 息 检 索 在 自身 发 展 的 同时 不 断 和 其 他 学 科 领 域 交叉 融合 ， 男 一 方面 ， 新 资源 、 
新 平台 的 出 现 也 促进 了 信息 检索 的 迅猛 发 展 。 信 息 检 索 研究 呈现 出 个 性 化 、 协 同化 、 社 会 化 的 趋势 。 本 文 
总 结 了 近年 来 信息 检索 研究 的 一 些 新 动向 ， 并 分 析 了 未 来 发 展 的 若干 趋势 。 
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1 引言 


信息 检索 (Information Retrieval，IR) 是 研究 如 何 从 大 规模 原始 信息 中 快速 准确 全 面 地 获 
~ 取 用 户 所 需 信息 的 一 门 学 科 。 它 最 初 起 源 于 图 书馆 的 文献 查找 需求 , 后 来 扩展 到 各 种 信息 处 
CN 理 领 域 。 互 联网 的 出 现 、 全 球 数字 化 进程 的 加 快 ， 使 得 信息 过 载 (Information Overload) 问 题 
日 益 严重 。 从 大 量 信息 中 找到 符合 用 户 要 求 的 信息 已 经 成 为 非常 迫切 的 需求 ， 同时 也 是 一 个 
挑战 。 这 促进 了 信息 检索 技术 的 发 展 。 特 别 是 最 近 几 年 来 ， 随 着 通用 搜索 引擎 的 日 益 流行 、 
各 行业 搜索 引擎 的 涌现 、 各 商家 对 搜索 技术 的 日 益 重视 和 大 量 投入 ,作为 搜索 引擎 核心 的 信 
乱 检 索 技 术 的 研究 也 出 现 了 一 个 前 所 未 有 的 高 潮 。 原 来 研究 自然 语言 处 理 、 人 工 智能 、 机 器 
ed 学 习 、 统 计 、 认 知 科学 、 数 据 库 、 分 布 式 并 行 处 理 的 不 少 学 者 都 将 目光 投向 了 信息 检索 这 个 
和 历久 弥 新 的 应 用 。 信 息 检 索 已 经 成 为 一 门路 学 科 跨 领域 的 交叉 学 科 。 以 顶级 学 术 国 际会 议 为 
CO 例 ， 原 来 只 有 SIGIR 等 为 数 不 多 的 会 议 收录 信息 检索 相关 的 最 新 成 果 ， 现 在 包括 SIGKDD、 
读 ICDM、WWW、SIGMOD、NIPS、VLDB、ACL、IJCAI、AAAI、EMNLP、CIKM 等 等 在 
a 内 的 各 领域 的 顶级 会 议 都 收入 了 不 少 有 关 信息 检索 研究 的 论文 , 有 些 会 议 信息 检索 相关 的 论 
文 甚至 占 到 绝 大 部 分 。 可 以 说 , 信息 检索 的 研究 进入 到 一 个 前 所 未 有 的 各 种 技术 交叉 融合 的 

时 代 。 本文 中， 我 们 对 近年 来 信息 检索 相关 的 研究 动向 进行 了 梳理 和 总 结 ， 以 期 能 够 为 相关 
一 研究 人 员 提 供 参考 。 


任何 一 个 信息 检索 系统 都 不 外 乎 如 下 的 结构 : 


用 户 将 自己 的 需求 (Information Need) 表 达成 
查询 (Query) 提 交 给 检索 系统 , 检索 系统 从 文档 集合 
(Collection) 中 对 每 篇 文档 (Document) 和 查询 进行 某 
种 相似 度 计 算 (Similarity Computation), 从 中 输出 部 
分 可 能 满足 用 户 需 求 的 结果 (Result Set)。 不 同 的 信 
居 检 索 应 用 可 能 在 查询 、 文 档 集 、 结 果 集 合 以 及 相 
似 度 计 算 的 要 求 上 不 尽 相 同 ， 从 而 出 现 了 各 种 不 同 
的 应 用 。 最 常见 的 信息 检索 系统 包括 以 万 维 网 
CWeb) 搜索 引擎 为 代表 的 信息 搜索 系统 、 以 信息 ”图 1， 一 个 信息 检索 系统 的 基本 结构 
订阅 系统 为 代表 的 信息 推荐 系统 以 及 以 回答 结果 

为 目标 的 问答 系统 等 等 。 


为 介绍 方便 ， 我 们 把 整个 信息 检索 相关 的 研究 归结 成 3 个 层次 (如 图 2 表示 )， 从 底 往 上 


信息 检索 和 


分 别 是 资源 层 、 技 术 层 和 应 用 层 。 资 源 层 主要 包括 信息 检索 和 
们 常用 到 的 TRECI 数 据 、WordNet2、HowNet3、 
要 列举 了 近年 来 在 研究 中 广泛 采用 的 资源 或 工具 。 


究 现状 简 述 


究 利 用 和 使 用 的 资源 , 除了 人 
网 上 其 他 公开 语 料 等 数据 外 ， 我 们 在 图 中 主 


像 社区 网 络 ( 如 Facebook) 数 据 、 微 博 ( 如 


a 


Twitter、 新 浪 微 博 ) 数 据 、 百 科 ( 如 维基 百科 、 互 动 百 科 ) 数 据 等 等 。 


括 自然 语言 处 理 (NLP)、 机 器 学 习 (ML)、 数 据 挖 ] 


领域 的 技术 。 它 们 和 传统 的 信 
息 检索 技术 ( 建 模 、 索引 、 查询 
扩展 、 相 关 反馈 等 ) 相 融合 第 | 
三 层 是 应 用 层 ， 包 含 了 大 量 基 | 评 
于 信息 检索 技术 的 应 用 
页 搜索 引擎 、 微 博 (Microblog) 价 
搜索 、 博 客 (Blog) 搜索 、 论 
坛 搜索 等 等 。 另 外 ， 需 要 特别 
一 提 的 是 信息 检索 中 的 评价 
技术 。 众 多 技术 、 众 多 应 用 的 
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2 ”信息 检索 新 应 用 的 研究 


出 现 使 得 评价 愈 发 重要 ， 评 价 是 信息 检索 领域 的 一 


在 信息 检索 的 相关 研究 中 ， 针 对 新 应 用 的 


妆 (DMD、 


第 二 层 主要 是 技术 层 ， 包 


并 行 处 理 (PP) 在 内 的 多 项 来 自 不 同 


| 


图 2， 信 息 检索 研究 层次 图 
个 永恒 话题 
究 近 年 来 


占据 主要 地 位 。 一 方面 ， 网 上 不 同 


格式 、 不 同形 式 、 不 同 领域 信息 的 日 益 增多 使 得 针对 这 些 信息 进行 检索 的 需求 日 益 强烈 ， 另 


一 方面 ， 新 信息 类 型 的 出 现 使 得 针对 这 些 信息 


特定 的 研究 问题 。 以 下 列举 一 些 有 代表 性 的 应 
(1) . 多 媒体 检索 研究 


用 五 


沈 。 


的 检索 呈现 出 新 的 各 自 不 同 的 要 求 ， 从 而 产生 


传统 的 信息 检索 研究 主要 针对 文本 对 象 。 随 着 多 媒体 文档 的 日 益 增 多 ， 对 多 媒体 检索 的 
需求 也 越 来 越 强烈 。 根 据 媒体 对 象 的 不 同 ， 多 媒体 检索 又 可 以 分 成 


音 检索 、 音 乐 检索 等 等 不 同类 型 。 这 些 不 同 的 


图 像 检 索 、 视 频 检索 、 语 


究 也 形成 了 自己 的 研究 社区 。 如 : 国际 上 著 


名 的 图 像 视 频 检 索 会 议 CIVR(ACM Conference on Image and Video Retrieval) 自 2002 年 开始 
已 经 召开 了 10 届 。 针 对 视频 检索 的 国际 著名 评测 会 


议 TRECVID(http://www-nlpir.nist.gov 


/projects/trecvid/ ) 也 召开 了 多 届 。 研 究 音 乐 检 索 的 而 


究 人 员 组 成 了 国际 音乐 检索 协会 (The 


一 


International Society for Music Information Retrieval, http:Wwww.ismirnet/ )， 并 从 2000 开始 组 


织 了 12 届 年 会 。 


多 媒体 检索 可 以 看 成 是 媒体 处 理 和 传统 信息 检索 技术 的 综合 


出 


高 级 的 语义 概念 (如 :日 出 、 五 星 红旗 等 等)， 


里 ， 可 以 得 到 媒体 的 低级 特征 (如 : 颜色、 形状、 纹理、 音量 匀 
媒体 的 低级 特征 到 高 级 的 语义 概念 之 间 存 在 着 


应 用 。 通 过 媒体 的 分 析 和 处 
等 )。 然 而 ， 用 户 的 查询 往往 是 


语义 鸿沟 (Semantic Gap)。 可 以 说 ， 多 媒体 检索 的 最 终 目 标 就 是 要 解决 如 何 跨 越 语 义 鸿沟 这 


1 TREC(Text REtrieval Conference) 是 信息 检索 领域 的 - 


办 ， 以 期 达到 在 大 规模 共同 数据 平台 上 对 信息 检索 技术 ; 


个 著名 评测 会 


行 评价 的 目的 。 


的 常用 标准 实验 数据 之 -。 详 细 信息 参见 ，http:Wtrec.nist.gov。 


之 间 的 语义 关联 ， 目前 在 学 术 界 使 用 广泛 。 详 细 信 息 


普林斯顿 大 学 心理 学 家 、 语 言 学 家 和 计算 机 工程 师 联合 


设计 并 


发 的 - 


议 ， 它 由 


美国 标准 技术 研究 所 组 织 举 


TREC 提供 数据 也 成 了 研究 人 员 


-部 英语 词典 ， 它 包含 天语 单词 


息 参 见 : http://wordnet/princeton.edu。 


董 振东 、 董 强 设 计 并 实现 的 一 个 以 汉语 和 英语 


以 及 概念 所 上 共有 的 属性 之 间 的 关系 为 基本 内 容 的 常 让 


http:/www.keenage.com 。 


识 知 识 


的 概念 为 描述 对 象 ， 以 揭示 概念 与 概念 之 间 
前 在 仿 


兰 术 界 使 用 广泛 。 详 细 信 息 参 见 : 
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个 核心 问题 。 近 些 年 的 研究 表明 ,综合 利用 各 种 媒体 或 模 态 信息 (如 同时 在 视频 中 的 音频 流 、 
视频 流 和 文本 流 ) 来 提高 语义 映射 的 精度 看 上 去 是 一 条 可 行 之 路 。 本 质 上 说 ， 这 些 研究 实际 
上 在 建立 不 同 媒体 表达 形式 之 间 的 关联 。 在 此 基础 上 ， 有 人 提出 了 跨 媒 体检 索 (Cross Media 
IR) 研 究 。 可 以 从 两 方面 去 理解 这 类 研究 :一 方面 ， 输 入 菜 种 媒体 形式 的 查询 ， 可 以 在 不 同 
媒体 形式 的 文档 集合 中 进行 检索 ; 男 一 方面 , 可 以 综合 多 种 媒体 或 模 态 信息 来 提高 检索 结果 


的 质量 。 


目前 ， 商 用 的 多 媒体 搜索 系统 主要 还 是 基于 文字 标注 的 系统 ， 要 实现 将 媒体 处 理 技术 融 
入 检索 技术 的 成 熟 应 用 系统 还 需要 较 长 的 一 段 路 要 走 。 


(2) . 针对 不 同 领域 或 不 同 场景 的 信息 检索 研究 


人 们 习惯 于 将 不 同 于 通用 搜索 的 系统 称 为 “垂直 搜索 ”系统 。 所 谓 “ 垂 直 ” 可 以 理解 为 

针对 不 同 领域 不 同 场景 进行 信息 检索 。 区 别 于 传统 通用 搜索 的 研究 ,，“ 垂 直 化 ”搜索 往往 要 

求 更 高 的 数据 质量 。 因 此 ， 这 些 研究 中 信息 抽取 (Information Extraction)， 即 从 文档 中 分 离 出 

所 需要 信息 的 技术 ,往往 是 其 中 的 关键 技术 。 比 如 ， 针 对 人 物 的 搜索 要 求 能 够 从 文档 中 分 析 

一 出 人 物 的 各 种 属性 信息 (如 : 性 别 、 年 龄 、 工 作 等 等 ); 针对 产品 的 搜索 要 求 得 到 产品 的 各 种 
> 属性 (如 : 型 号 、 价 格 、 产 地 等 等 )。 如 果 抽 取 的 目标 文档 格式 化 程度 较 高 ， 可 以 通过 规则 模 
板 或 机 器 学 习 的 方法 进行 分 类 。 如 果 抽 取 的 目标 文档 格式 化 程度 不 高 , 往往 还 要 用 到 文本 理 
解 技术 。 如 果 信 息 分 散在 不 同 目标 中 ,还 需要 利用 信息 集成 (Information Integration) 技 术 。 信 
县 抽取 的 质量 往往 决定 了 最 后 “垂直 搜索 ”的 效果 。 在 实际 中 ， 通 常 是 通过 人 工 + 计 算 机 处 
理 的 方法 来 进行 处 理 。 针 对 不 同 的 领域 ， 这 些 年 还 出 现 了 针对 医学 文献 、 生 物 文献 、 专 利文 
献 、 法 律 文献 等 的 检索 研究 。 比 如 : TREC 会 议 从 2003 增加 基因 相关 文献 的 检索 (有 人 认为 
这 种 研究 也 是 “生物 信息 学 ”的 一 种 ) ; 从 2006 年 开始 增加 了 法 律 文献 的 检索 。 另 一 个 重 
要 评测 会 议 NTCIR(http://research.nii.ac.jp/ntcir/) 从 2002 年 开始 就 增加 了 专利 文献 的 检索 。 这 
些 研究 集中 关注 该 领域 的 应 用 需求 , 比如 医学 文献 检索 中 可 能 需要 融入 药物 和 病症 之 间 的 关 
联 分 析 。 


另外 ， 新 的 网 络 事物 的 出 现 也 会 促 发 信息 检索 研究 。 最 典型 的 例子 是 前 些 年 出 现 的 博客 
(Blog) 检索 和 近 两 年 出 现 的 微 博 (Microblog) 搜 索 。 作 为 WEB2.0 时 代 的 产物 ， 博 客 受 到 人 
一 门 的 广泛 关注 ， 分 析 博 客 从 而 进行 检索 的 需求 非常 强烈 。 不 同 于 以 往 的 检索 对 象 ， 博客 有 它 
rr 的 一 些 特性 ， 如 : 博客 包含 博 主 、 博 文 、 评 论 、 链 接 、 引 用 通告 (Traceback) 等 信息 。 总 
的 来 说 ， 它 是 各 种 信息 的 一 个 聚合 体 。 针 对 博客 这 个 新 鲜 事 物 的 研究 ， 比 如 对 垃圾 博客 的 识 
别 和 过 滤 、 博 客 社区 的 发 现 和 分 析 、 博 客 内 容 挖掘 及 趋势 预测 ， 这 几 年 比较 活跃 。 更 值得 
提 的 是 , 由 于 博客 上 存在 大 量 的 主观 评论 , 因此 , 博客 评论 的 倾向 性 分 析 (Sentiment Analysis) 
日 益 受 到 关注 。 很 显然 , 这 种 技术 也 能 广泛 应 用 到 商品 的 评论 中 , 从 而 具有 很 要 的 商业 价值 。 
简单 地 说 ， 倾 向 性 分 析 就 是 指 对 文本 是 否 存在 主观 评论 、 评 论 的 对 象 是 什么 、 是 询 还 是 贬 、 
程度 如 何等 进行 分 析 。 有 些 人 也 称 之 为 情感 分 析 或 者 观点 分 析 。TREC 还 从 2006 年 开始 增 
加 了 博客 检索 的 子 任务 ,要求 返 回 的 文档 不 仅 要 考虑 相关 性 还 要 考虑 是 否 存在 倾向 性 。 由 于 
倾向 性 分 析 涉 及 到 文本 处 理 技 术 , 也 引起 了 自然 语言 处 理 领 域 研究 人 员 的 广泛 兴趣 。 国 内 外 
出 现 了 大 量 针 对 该 问题 进行 的 研究 。 国 内 中 文 信息 学 会 还 组 织 了 中 文 的 倾向 性 分 析 评测 。 从 
目前 的 研究 结果 来 看 ， 大 部 分 工作 仍然 基于 词汇 层面 (情感 词 )， 这 项 技术 要 真正 走向 实用 还 
要 付出 艰苦 的 努力 。 
微 博 由 于 其 和 移动 互联 网 的 紧密 结合 而 在 最 近 几 年 于 勃发 展 起 来 。 微 博信 息 短 、 传 递 快 、 
实时 性 强 , 包含 用 户 信 息 、 不 同 用 户 之 间 的 关注 信息 、 信息 的 转发 路 径 等 信息 。 有 研究 指出 ， 
微 博 搜 索 在 查询 意图 、 数 据 分 布 等 诸多 方面 不 同 于 传统 的 搜索 ， 是 一 项 有 前 途 的 研究 方向 。 
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(3) . 移动 搜索 (Mobile Search) 研 究 


移动 设备 (以 手机 为 代表 ) 的 高 普及 率 、 手 机 网 络 的 高 覆盖 率 和 发 展 前 景 、 手 机 和 用 户 的 
紧密 绑 定 关系 、 手 机 的 庞大 用 户 群 等 等 因素 , 无 疑 使 基于 手机 的 信息 搜索 具有 重要 的 商业 价 
值 。WWW、SIGIR 等 一 系列 顶级 检索 会 议 都 多 次 举行 了 移动 搜索 的 研讨 会 。 和 普通 搜索 
样 ， 手 机 搜索 同样 要 对 信息 进行 获取 、 组 织 和 提供 访问 。 不 同 的 是 ， 目 前 手机 搜索 研究 的 基 
本 出 发 点 是 突破 手机 输出 (主要 指 屏幕 显示 ) 和 输入 的 限制 。 由 于 手机 屏幕 尺寸 的 限制 ， 一 方 
面 要 求 返回 的 搜索 结果 更 精确 ， 尽 量 杜绝 垃圾 信息 ; 另 一 方面 ， 也 要 求 在 有 限 的 屏幕 空间 下 
结果 的 布局 更 合理 ， 显 示 更 简洁 ， 显 示 重 点 更 突出 ， 便 于 用 户 进行 进一步 浏览 操作 。 这 需要 
综合 排序 算法 、 信 息 过 滤 、 文 本 分 析 、 摘 要 、 人 机 交互 等 各 种 技术 。 而 由 于 在 手机 上 用 户 输 
入 的 限制 ， 在 检索 交互 上 ,往往 要 通过 拼音 文字 转换 、 查 询 推 荐 、 查 询 补 全 等 技术 来 尽量 减 
少 用户 的 输入 负担 。 当 然 ， 手 机 搜索 中 除了 文本 搜索 ， 多 媒体 搜索 也 是 一 个 重要 组 成 部 分 
媒体 的 标注 、 显 示 、 传 输 都 是 手机 多 媒体 搜索 中 主要 的 研究 问题 。 另 外 ， 由 于 手机 本 身 的 特 
点 ， 可 以 考虑 把 用 户 因素 、 地 理 位 置 等 下 上 文 环境 (Contexb 因 素 考 虑 在 内 进行 搜索 结果 的 优 
化 研究 (如 进行 个 性 化 搜索 一 Personalized Search 或 者 本 地 搜索 一 Local Search)。 


~y 目前 移动 搜索 的 研究 仍然 刚刚 起 步 。 由 于 各 方面 (网 速 、 上 网 费 、 手 机 功能 等 ) 的 限制 ， 
现在 移动 搜索 的 普及 率 远 不 能 和 互联 网 上 搜索 引擎 相 比 。 但 是 可 以 预见 ,在 不 久 的 将 来 , 移 
动 搜索 必 将 有 更 广阔 的 前 景 。 


(4) . 基于 检索 的 广告 技术 


现 有 的 大 部 分 商业 搜索 引擎 都 有 在 线 广告 (Online advertisement) 。 用 户 输入 点 击 ， 在 搜 
索 结 果 中 或 侧 部 会 出 现 可 能 与 用 户 查 询 相关 联 的 广告 。 在 线 广告 是 搜索 引擎 公司 巨大 收益 的 
主要 来 源 ， 也 能 给 广告 源 商 家 带 来 重要 利益 ， 因 此 ， 受 到 商业 界 和 研究 界 的 高 度 关注 ， 甚 至 
衍生 了 一 个 叫 计算 广告 学 (Computational Advertising) 的 新 名 词 。SIGIR、WWW 等 会 议 最 近 
几 年 也 把 信息 检索 中 的 广告 作为 一 个 重要 的 议题 进行 研讨 。 输 入 的 可 以 是 一 个 搜索 查询 , 往 
往 称 为 付费 搜索 (paid search) ， 匹 配 得 到 的 广告 称 为 赞助 广告 (Sponsored ads) 或 关键 词 
驱动 广告 keyword-driven ads); 也 可 以 是 用 户 正在 浏览 的 网 页 、 图 像 或 视频 ， 得 到 的 广告 
称 为 context-driven ads( 语 境 驱 动 广告 ) 或 contextual ads《〈 语 境 广告 )。 然 后 ， 系 统 根据 从 用 户 
的 输入 中 计算 出 来 的 意图 将 合适 的 广告 推送 给 用 户 。 从 刚才 的 过 程 可 以 看 出 , 计算 广告 非常 
像 信 息 检索 , 可 以 看 成 是 根据 用 户 的 输入 查询 在 广告 库 这 个 集合 中 进行 匹配 , 将 最 可 能 的 广 
告 推送 给 用 户 。 信息 检索 技术 很 显然 能 在 计算 广告 中 发 挥 巨 大 作用 , 这 也 是 为 什么 在 计算 广 
告 在 信息 检索 被 广泛 关注 的 主要 原因 。 与 一 般 信息 检索 不 同 的 是 , 计算 广告 中 的 匹配 并 不 简 
单 地 基于 传统 的 相关 度 概念 ， 而 是 要 挖掘 用 户 的 商业 意图 。 举 例 来 说 ， 一 个 用 户 输入 “北京 
到 上 海 车 票 ” 系统 可 以 猜测 用 户 很 可 能 要 到 上 海 , 于 是 可 以 把 上 海 的 一 些 酒店 的 广告 信息 
推送 给 用 户 。 这 里 就 不 是 简单 的 相关 度 匹 配 的 概念 如果 没有 从 用 户 输入 中 分 析 到 商业 意图 ， 
系统 也 可 以 不 推送 广告 。 计 算 广告 要 同时 考虑 匹配 结果 的 准确 性 和 用 户 的 良好 体验 。 在 排序 
时 ,计算 广告 中 要 综合 各 种 利益 ， 要 同时 考 上 处 用 户 的 体验 、 商 家 的 利益 以 及 商业 上 的 限制 等 
等 。 因此， 这 里 的 排 字 是 一 个 非常 复杂 # 的 问题 。 除 了 原 有 的 排序 算法 ,往往 还 同时 使 用 经 济 
收益 模型 。 另 外 , 广告 文本 一 般 都 ` 会 很 长 ， 缺乏 像 传统 文本 中 可 以 利用 的 上 下 文 语言 信息 。 
因此 ， 传 统 的 信息 检索 模型 也 需要 做 相应 修改 。 总 之 ， 计 算 广 告 学 是 一 门 新 兴 的 具有 挑战 性 
的 研究 领域 。 当 然 ， 目 前 进入 这 个 领域 还 有 相当 的 难度 ， 而 缺乏 数据 是 一 个 瓶颈 。 广 告 数据 
涉及 商家 利益 ， 不 便 公 开 。 虽 然 ， 微 软 曾经 宣称 要 提供 数据 来 支持 该 领域 的 研究 ， 但 是 目前 
仍 未 实现 。 对 结果 的 评估 是 另外 一 个 主要 问题 。 因 为 ， 计 算 广 告 最 终 是 要 让 各 利益 依 关 方 的 
利益 最 大 化 : 用 户 体验 最 好 、 搜 索引 擎 商家 和 广告 商家 利益 最 大 化 ， 这 种 目标 难以 在 研究 中 


二 
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进行 模拟 。 因 此 ， 对 研究 结果 的 有 效 性 评估 是 值得 研究 的 一 个 重要 问题 。 
(5) . 个 人 信息 管理 (Personal Information Management, PIM) 及 桌面 检索 技术 研究 


在 很 多 研究 者 面向 巨大 的 互联 网 资源 进行 研究 的 同时 ， 人 们 发 现 ， 由 于 硬盘 的 价格 越 来 
越 便 宜 ， 用 户 自身 拥有 的 数据 越 来 越 多 ， 每 个 人 的 机 器 已 经 不 堪 数 据 重负 。 个 人 信息 管理 已 
经 成 为 一 个 非常 重要 而 迫切 的 需求 ， 逐 渐 开 始 受到 研究 界 的 广泛 重视 。2005 年 开始 ， 国 际 
上 就 召开 了 一 年 一 度 的 个 人 信息 管理 国际 研讨 会 ，SIGIR、SIGCHI( 人 机 交互 ) 等 会 议 也 在 这 
几 年 把 个 人 信息 管理 列 为 主要 讨论 议题 。 国 际 顶 级 期 刊 ACM Transaction on Information 
System (TOIS) 也 在 2008 年 年 底 组织 了 一 期 个 人 信息 管理 的 专刊 。 个 人 信息 管理 主要 研究 个 
人 信息 的 获取 、 组 织 、 管 理 、 维 护 和 检索 ， 也 是 兵家 必 争 的 “未 来 桌面 ”的 核心 技术 。 个 人 
信息 管理 中 我 们 比较 熟悉 的 是 桌面 搜索 。 近 年 来 ， 桌面 检索 (对 用 户 硬 盘 上 的 数据 进行 搜索 ) 
技术 已 成 了 搜索 引擎 公司 关注 的 焦点 , 很 多 公司 都 开发 了 自己 的 桌面 搜索 引擎 。 但 是 ， 商 用 
的 桌面 搜索 工具 在 用 户 满 意 度 方面 仍然 有 待 提 高 。 一 方面 ， 同 传统 的 网 页 搜索 相 比 ， 桌 面 搜 
索 可 以 利用 的 信息 很 少 。 网 页 搜索 对 网 页 的 检索 除了 利用 关键 词 外 , 还 可 以 利用 网 页 之 间 的 
链接 关系 、 用 户 日 志 等 信息 。 而 桌面 搜索 最 初 上 只 有 文本 信息 和 访问 时 间 等 信息 。 另 一 方面 ， 
用 户 对 桌面 搜索 的 准确 度 要 求 却 比 网 页 搜索 高 , 通常 用 户 希 望 能 通过 桌面 搜索 引擎 直接 定位 
到 想 要 的 文件 。 所 以 桌面 搜索 中 如 何 获 得 更 多 的 信息 , 并 利用 这 些 信息 对 检索 结果 进行 排序 
是 一 个 很 困难 的 问题 。 当 然 ， 桌面 搜索 也 有 一 定 的 优势 ， 比 如 和 用 户 结合 得 很 紧 ， 可 以 利用 
用 户 的 信息 。 我 们 相信 ， 结 合用 户 行为 信息 来 做 桌面 搜索 是 一 个 有 前 途 和 可 行 的 研究 方 
目前 , 已经 有 文献 利用 用 户 访 问 文件 和 查询 的 日 志 , 使 用 机 器 学 习 的 方法 ， 学 习 适 合 于 个 人 
的 排序 算法 。 另 外 , 也 有 人 利用 访问 模式 来 建立 文件 之 间 联 系 方法 , 然后 利用 类 似 PageRank 
的 算法 进行 排序 。 
(6) . 社会 化 控 据 及 搜索 (Social Mining and Search) 研 究 

近年 来 ， 互 联网 越 来 越 呈 现 出 明显 的 社会 化 趋势 。 以 Delicious 等 为 代表 的 社会 化 标签 
网 站 积累 了 大 量 数 据 ， 以 Facebook 为 代表 的 社会 化 网 络 得 到 网 民 的 广泛 参与 ， 以 Twitter、 
新 浪 微 博 为 代表 的 新 的 信息 共享 和 传递 机 制 表 现 出 勃勃 生机 。 这 些 新 后 的 事物 一 方面 促进 了 
一 些 新 的 搜索 应 用 的 出 现 ， 如 Twitter 搜索 、 微 博 搜 索 等 ， 另 一 方面 由 于 其 列 含 了 大 量 社会 


起 


二 化 信息 (用 户 信息 、 用 户 关系 信息 、 用 户 行为 信息 、 信 息 关 联 信息 等 ) 而 为 其 他 应 用 提供 了 十 
rr 分 宝贵 的 数据 。 研究 人 员 正 在 挖 所 这 些 数据 背后 隐藏 的 规律 和 深刻 内 涵 , 来 进一步 提高 信息 
检索 的 效果 。 


3 ”信息 检索 技术 的 研究 


这 一 部 分 我 们 介绍 信息 检索 相关 技术 的 研究 。 传 统 的 信息 检索 技术 主要 包括 信息 检索 模 
型 、 相 关 反 馈 和 查询 扩展 、 索 引 技 术 等 等 。 最 近 一 些 年 来 ， 机 器 学 习 、 自 然 语 言 处 理 、 统 计 
等 其 他 领域 的 技术 被 更 广泛 地 用 于 信息 检索 中 ， 进 展 情况 小 结 如 下 : 


(1) . 信息 检索 模型 的 研究 


检索 模型 的 本 质 是 对 用 户 需求 和 文档 的 相关 性 建 模 ， 主 要 包括 查询 和 文档 的 表示 技术 及 
相关 性 排序 技术 。 早 期 的 布尔 模型 、 向 量 空间 模型 、 概 率 模 型 及 1998 年 出 现 的 统计 语言 建 
模 检索 模型 仍然 在 被 人 们 不 断 改 进 和 应 用 。 此 外 ， 也 陆续 出 现 了 儿 种 新 的 模型 。 主 要 的 改进 
思路 在 两 个 方面 , 一 个 是 如 何 将 特征 项 之 间 的 关系 考虑 在 内 来 突破 传统 模型 中 的 特征 项 独立 
(Term Independence) 假 设 ， 男 一 个 是 如 何 突 破 传 统 的 词 项 频率 TF(Term Frequencey)、 逆 文档 
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频率 IDF(Inverse Document Frequency) 及 文档 长 度 等 三 个 因素 来 改进 检索 模型 。 马 尔 科 夫 随 
机 场 (Markov Random Field，MRF) 模 型 可 以 看 成 是 前 者 的 一 个 结果 。 它 综合 考虑 了 特征 项 之 
间 的 各 种 组 合 关 系 ， 并 通过 不 同 权重 融合 到 一 个 检索 模型 中 。 实 验 结果 表明 ,马尔 科 夫 随机 
场 模型 能 够 取得 超过 传统 检索 模型 的 结果 ， 在 有 噪音 的 数据 (如 网 页 ) 上 效果 更 加 明显 。 传 统 
的 信息 检索 模型 ， 不 论 是 具有 30、40 年 历史 的 向 量 空间 模型 、 概 率 检 索 模 型 还 是 近 10 年 出 
现 的 语言 建 模 模型 ， 都 只 包含 了 三 个 因素 : 词 项 频率 、 首 文档 频率 及 文档 长 度 ， 更 多 因素 的 
融入 一 直 是 人 们 的 研究 目标 。 有 人 提出 将 特征 项 之 间 的 邻近 关系 (Proximity) 也 引入 到 信息 检 
索 模型 中 ,并 进行 了 初步 尝试 。 关于 信息 检索 模型 的 一 个 更 有 意思 的 研究 来 自 伊 利 诺 伊 大 学 
厄 本 那 -香槟 分 校 (UIUC)。 他 们 提出 : 一 个 好 的 信息 检索 模型 必须 满足 一 些 基 本 约束 条 件 ， 
并 证 明 现 有 的 信息 检索 模型 条 件 满 足 ( 和 参数 有 关 ) 或 不 完全 满足 上 述 基 本 条 件 ， 在 传统 模型 
上 和 参数 变化 相关 的 实验 结果 印证 了 其 理论 分 析 。 在 此 基础 上 , 他 们 提出 了 构造 新 的 检索 模 
型 的 框架 和 方法 ， 新 提出 的 模型 具有 一 定 的 优势 。 


(2) . 基于 机 器 学 习 的 信息 检索 模型 研究 


近年 来 , 基于 机 器 学 习 的 信息 检索 模型 研究 掀起 一 股 热 潮 。 排序 学 习 (Learning to Rank ) 
这 个 议题 在 SIGIR 论文 中 占据 了 不 小 的 篇 幅 ， 一 些 机 器 学 习 的 会 议 ( 如 NIPS) 也 纳入 了 这 个 
议题 ， 微 软 亚洲 研究 院 还 专门 建立 了 相应 网 站 (http://research.microsoft.com/en-us/um/beijing/ 
projects/letor/index.html )， 提 供 相 关 论 文 、 数 据 、 评 测 标准 和 工具 ， 供 研究 者 使 用 。 与 现 有 
的 启发 式 排序 函数 不 同 , 这 些 研究 假定 排序 函数 满足 某 种 形式 , 然后 通过 在 标注 集合 上 进行 
训练 的 方法 求 出 模型 参数 ， 从 而 得 到 最 后 的 排序 函数 。 排序 学 习 巧 妙 地 将 排序 问题 转化 成 机 
器 学 习 问 题 ， 因 而 受到 研究 人 员 特 别 是 从 事 机 器 学 习 的 研究 人 员 的 特别 关注 。 各 种 机 器 学 习 
的 方法 被 引入 到 检索 当中 ， 包 括 有 监督 的 学 习 (Supervised Learning) 和 半 监 督 的 学 习 
(Semi-supervised Learning)、 生 成 式 (Generative) 机 器 学 习 方法 和 判别 式 (Discriminative) 机 器 
学 习 方法 。 各 种 传统 的 机 器 学 习 方法 也 被 “改装 ”成 适合 于 排序 学 习 的 方法 , 如 Ranking SVM.、 
RankBoost、RankNet 等 等 就 是 这 些 年 提出 的 方法 。 尽 管 还 存在 各 种 争议 ， 理 论 上 也 有 待 完 
善 ,但 是 排序 学 习 正 日 益 受 到 广泛 的 关注 是 不 争 的 事实 。 更 重要 的 是 ， 它 使 得 机 器 学 习 的 研 
究 人 员 能 够 很 快 地 参与 到 信息 检索 的 研究 当中 ， 从 而 为 信息 检索 的 研究 增加 了 生力军 。 


全 (3) . 查询 分 析 技 术 的 研究 


rr 在 一 个 典型 的 信息 检索 系统 当中 ， 用 户 将 自己 的 信息 需求 表示 成 查询 输 给 检索 系统 。 检 

索 系统 根据 查询 将 结果 按照 丐 配 的 相关 程度 高 低 返 回 给 用 户 。 这 其 中 ,查询 是 用 户 和 计算 机 

之 间 的 交互 “语言 ”” 起 着 承上启下 的 枢纽 作用 : 一 方面 ， 它 要 尽 可 能 贴切 地 反映 出 用 户 的 

信息 需求 ， 男 一 方面 ， 输 入 的 查询 要 能 被 检索 系统 所 理解 和 处 理 。 然 而 ， 由 于 多 种 原因 (如 
用 户 背 景 、 经 验 的 差别 )， 使 得 用 户 输入 的 查询 不 能 贴切 地 反映 用 户 的 信息 需求 ， 初 次 查询 
不 一 定 能 返回 满足 其 需求 的 结果 。 而 传统 的 信息 检索 往往 基于 关键 词 匹配 , 不 能 理解 查询 背 
后 所 隐藏 的 深刻 意图 (比如 : 输入 “ 字 处 理 共享 软件 下 载 ”的 用 户 希 望 能 够 得 到 一 个 能 够 
快速 下 载 相 关 软件 的 网 站 ， 而 很 多 搜索 引擎 上 只 提供 关键 词 匹配 的 无 关 结果 )。 因 此 ， 需 要 对 
用 户 的 查询 进行 深刻 的 分 析 和 理解 , 以 便 能 够 对 原始 查询 进行 重 构 或 者 针对 用 户 的 意图 来 有 
针对 性 地 检索 ， 以 提高 信息 检索 的 精度 。 其 最 终 目 的 是 减少 用 户 到 达 目 标 文 档 的 时 间 。 近 些 
年 , 针对 用 户 查 询 分 析 的 研究 如 雨 后 春 血 般 涌现 出 来 , 在 一 系列 重要 会 议 上 都 占据 了 较 大 的 
篇 幅 。 


在 查询 分 析 中 意图 分 类 有 重要 地 位 。 意 图 的 分 类 体系 很 多 ， 比 如 有 人 将 查询 分 成 信息 类 


下 二 
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(Informational)、 导 航 类 (Navigational) 和 事务 类 (Transactional) 。 人 简单 地 说 ， 信 息 类 就 是 查找 
与 查询 相关 的 各 方面 的 信息 ， 比 如 “中 国 历史 ” 希望 返回 与 之 相关 的 各 方面 信息 ;导航 类 
主要 针对 某 个 网 站 入 口 或 者 个 人 主页 进行 查询 ， 比 如 “新 浪 首页 ” ; 事务 类 的 查询 得 到 结 
果 以 后 通常 还 要 进行 后 续 的 交互 操作 ， 比 如 输入 “ 字 处 理 共享 软件 下 载 ” 得 到 检索 结果 
以 后 还 要 进行 下 载 等 操作 。 分 成 这 几 类 得 询 以 后 就 可 以 在 检索 中 采用 有 针对 性 的 检索 方法 。 
比如 有 人 经 研究 发 现 ， 导 航 类 查询 检索 中 锚 文 本 的 作用 会 很 大 。 因 此 , 一 旦 判定 是 此 类 查询 
便 可 以 加 大 锚 文 本 的 权重 ， 从 而 返回 更 好 的 结果 。 除 了 上 述 分 类 体系 外 ， 查 询 也 可 以 按照 领 
域 进行 语义 分 类 ， 如 分 成 “计算 机 ”“ 物 理 ”“ 化 学 ”等 领域 类 别 。 有 人 根据 查询 的 意图 中 
是 否 包 含 商业 意图 进行 分 类 ; 也 有 人 根据 输入 的 查询 意图 是 否 具 有 歧义 进行 分 类 ; 还 有 人 根 
据 查 询 意图 是 否 包 含 多 媒体 需求 进行 分 类 。 由 于 查询 通常 都 较 短 ， 本 身 提供 的 信息 量 不 足 ， 
所 以 对 查询 进行 意图 分 类 ,往往 都 需要 借用 外 部 资源 ， 比 如 通过 查询 日 志 进 行 训练 ， 归 结 出 
分 类 规则 。 


对 查询 进行 分 析 的 另 一 种 技术 是 查询 难度 预测 。 这 通常 是 通过 查询 和 返回 的 检索 结果 来 
判断 结果 的 优 劣 。 如 果 结 果 较 好 则 对 应 “ 易 ” 查 询 ， 结 果 较 差 则 对 应 “ 难 ” 查 询 。 将 查询 区 
日 


T= 分 成 “ 难 ” 和 “ 易 ” 有 很 多 应 用 前 景 ， 比 如 : 一 旦 用 户 输入 “ 难 ” 查 询 时 ， 我 们 可 以 将 与 之 
Fe 相关 的 “ 易 ” 查 询 推荐 给 用 户 ,以 便 获得 较 好 的 结果 。 近 几 年 ， 查询 难度 预测 的 研究 非常 热 。 
© 很 多 人 在 SIGIR、CIKM 上 发 表 了 大 量 与 之 相关 的 文章 。 这 些 研究 主要 是 从 结果 分 布 的 特点 
CN 来 判断 结果 的 好 坏 。 

© 

OO 另外 ， 还 有 一 些 研究 通过 分 析 查 询 的 其 他 特性 ， 进 行 有 针对 性 的 检索 研究 。 比 如 ， 查 询 
这 是 否 需要 个 性 化 、 查 询 是 否 可 本 地 化 等 等 。 

Cs 

入 

4 ”新 资源 在 信息 检索 中 的 利用 


这 一 部 分 我 们 将 介绍 新 的 资源 在 信息 检索 中 的 利用 。 新 的 资源 的 兴起 不 仅 对 传统 的 资源 
提供 了 补充 ， 还 由 于 其 特点 而 被 信息 检索 研究 所 利用 。 


(1) . 维基 百科 (Wikipedia): 


维基 百科 ， 是 一 个 开放 式 的 网 络 百科 全 书 。 其 自由 、 免 费 、 内 容 开 放 的 百科 全 书 协作 计 
划 吸 引 了 来 自 世 界 各 地 的 参与 者 ， 目 前 已 经 成 长 为 全 球 最 大 的 网 络 百 科 全 书 。 截 至 2008 年 
1 月 ， 英 文 版 维基 百科 已 有 6,000,000 多 个 条 目 ， 并 且 还 将 不 断 增加 。 近 年 来 ， 维 基 百 科 以 
其 数据 量 大 、 质 量 高 、 协 同 编辑 等 特征 脱颖而出 ， 成 为 信息 检索 和 自然 语言 处 理 领 域 的 研究 
热点 之 一 。 在 维基 百科 中 ， 每 一 个 条 目 都 对 应 一 篇 文章 ， 并 且 这 个 条 目 是 对 这 篇 文章 所 描述 
事物 的 概括 ， 或 者 说 是 主题 。 这 些 主题 大 部 分 由 词组 构成 。 由 于 维基 百科 允许 网 络 用 户 在 
一 定 规范 内 自由 编撰 , 所 以 这 些 主题 更 能 反映 现实 生活 中 人 人 们 常用 的 语义 概念 。 随 着 维基 百 
科 不 断 地 被 编辑 和 增加 条 目 , 我 们 可 以 期 待 其 包含 的 人 们 常用 的 词组 将 更 为 完善 , 同时 能 及 
时 反映 人 们 用 语 的 变化 ,维基 百科 为 解决 自然 语言 理解 和 信息 检索 中 的 问题 提供 了 新 的 资源 
和 方法 。 在 维基 百科 中 ， 概 念 之 间 存 在 包括 上 下 位 在 内 的 多 种 关系 。 因此， 一 种 直接 的 应 用 
是 将 维基 百科 作为 词典 , 通过 建立 概念 之 间 的 关系 图 ， 来 计算 概念 之 间 的 语义 相似 度 。 有 人 
采用 维基 百科 来 解决 命名 实体 消 歧 的 问题 ， 其 作用 在 于 将 原 有 的 文字 片断 拓展 , 根据 维基 百 
科 的 内 容 提供 消 歧 所 必需 的 上 下 文 信息 。 很 多 研究 利用 维基 百科 改善 检索 的 结果 


(2) . 开放 式 目录 管理 (Open Directory Project，ODP ): 


1998 年 6 月 ， 当 时 一 位 程序 员 里 奇 .斯 克 伦 塔 (Rich Skrenta) 对 雅虎 的 搜索 结果 中 经 常 


NN 


Np 


信息 检索 研究 现状 简 述 


出 现 老 的 和 死 的 链接 感到 非常 厌烦 ,于 是 他 在 互联 网 上 发 出 了 倡议 ,请求 位 于 全 球 各 地 的 互 
联网 用 户 都 志愿 来 帮助 编辑 这 个 目录 。 倡议 很 快 得 到 了 很 多 热心 志愿 者 的 支持 ， 于 是 划时代 
的 管理 方式 开放 式 目 录 管 理 ODP 就 此 诞生 。 国 外 最 著名 的 开放 式 目 录 管 理 网 站 当 属 Dmoz 
(http://www.dmoz.org)， 一 般 大 家 所 说 的 开放 式 目 录 管 理 就 是 指 的 该 网 站 。Dmoz 由 超过 8 
万 名 编辑 志愿 义务 工作 ， 将 4 百 多 万 个 网 站 分 类 到 59 万 多 个 详细 类 别 中 ， 所 有 信息 提供 给 
任何 个 人 和 组 织 免费 使 用 。 开 放 式 目录 管理 中 包含 了 大 量 分 类 目录 信息 ,而且 都 是 人 工 编辑 
添加 并 经 过 相应 专业 管理 员 处 理 的 数据 。 因 此 很 多 公司 和 研究 人 员 利 用 开放 式 目录 管理 提高 
检索 、 分 类 和 聚 类 效果 。 例 如 ， 谷 歌 Google) 在 搜索 结果 排名 中 就 考虑 了 网 站 在 开放 式 目 
录 管 理 中 的 信息 ; 很 多 人 利用 开放 式 目录 管理 中 的 分 类 目录 信息 取得 了 不 错 的 效果 ， 如 : 由 
罗 . 费 拉 吉 那 〈Paolo Ferragina) 等 利用 开放 式 目 录 管 理 对 搜索 结果 进行 聚 类 并 提高 了 用 户 搜 
索 体 验 ”。 因 此 , 这 引起 了 研究 人 员 的 关注 , KDD-CUP 20055 就 有 一 个 将 80 万 个 查询 分 到 67 
个 类 别 的 任务 。 


(3) . Folksonomy (分 众 分 类 法 ): 


Folksonomy 这 个 词 由 folks (人 众 ) 与 taxonomy (分 类 学 ) 组 合 而 来 ， 也 有 人 译作 社会 


二 


~ 分 类 法 ， 是 指 一 种 由 用 户 对 web 资源 (网 页 、 图 片 等 ) 标注 ， 进 而 集合 大 众 对 某 个 资源 的 
A 标注 来 对 该 资源 分 类 的 协同 工作 方式 。 在 这 种 模式 下 ， 用 户 既 是 标签 (tag) 的 使 用 者 ， 同 时 也 
Ql 是 创造 者 。 用 户 标 注 的 标签 反映 了 用 户 对 于 资源 的 认 知 ,而 不 同 的 用 户 对 同一 资源 标注 不 同 
© 的 标签 ， 则 从 不 同方 面 放映 了 该 资源 的 属性 。 在 web2.0 时 代 ，web 提供 了 对 网 页 、 图 片 等 
OO 进行 标注 的 机 制 ， 互 联网 用 户 可 以 方便 地 对 浏览 的 信息 进行 标注 。Folksonomy 的 典型 系统 
CO 有 : http:/delicious.com/〈 分 享 书签 的 网 站 ) ，http://flickr.com( 分 享 照 片 的 网 站 ) 等 。 通 过 
区 delicious.com, 用 户 可 以 保存 自己 喜欢 的 网 页 , 同时 根据 自己 的 相关 性 判断 对 网 页 标注 标签 ， 
和 有 同样 兴趣 的 用 户 即 可 通过 标签 查找 到 网 页 并 进行 浏览 。Folksonomy 有 很 多 好 处 ， 如 : 允 
SS 许 本 体 〈ontology) 、 辞 典 及 分 类 系统 的 发 展 ， 可 以 搜索 及 方便 地 浏览 ， 可 以 发 现 新 事物 ， 
= 发 现 社区 ， 进 行 协作 推荐 等 。 同 时 ，Folksonomy 也 有 难点 ， 如 各 种 语言 标签 的 混合 ， 标 签 

的 单 复 数 、 靶 义 、 同 义 及 抽象 具体 的 程度 难以 控制 ， 垃 圾 标签 的 干扰 等 。 一 些 学 者 也 在 利用 


自然 语言 处 理 等 技术 开展 研究 ， 力 图 解决 这 方面 的 问题 。 


标签 对 信息 的 组 织 及 检索 有 重要 的 作用 。 在 文本 检索 中 ,标签 可 以 加 入 到 向 量 空间 模型 
一 中 ， 参 与 文档 的 表示 ; 也 有 做 法 使 用 标签 信息 表示 文档 之 间 的 关系 ， 从 而 协助 文档 的 排序 。 
9 标签 对 于 非 文 本 信息 的 组 织 及 检索 也 有 重要 的 意义 。 通 过 对 图 片 、 视 频 等 多 媒体 资源 的 标注 ， 
可 以 对 这 些 非 文本 信息 进行 组 织 、 归 类 及 检索 。 同 时 ， 标 签 信息 还 可 以 帮助 用 户 进行 知识 管 

理 ， 跟 踪 事 物 发 展 ， 发 现 新 资源 ， 找 到 志同道合 者 等 。 


(4) . 搜索 日 志 (Search Log ): 


搜索 引擎 会 对 用 户 的 搜索 行为 进行 记录 ， 形 成 大 量 的 日 志 。 一 般 情况 下 ， 搜 索 日 志 中 会 
包含 用 户 ID、 碍 询 词 、 结 果 列 表 以 及 点 击 情况 等 信息 。 在 搜索 日 志 的 研究 中 ， 有 很 大 一 部 
分 是 做 一 些 统计 分 析 工 作 。 比 如 为 了 了 解 用 户 的 搜索 习惯 ,可 以 统计 查询 词 的 长 短 、 一 次 查 
询 之 后 的 点 击 次 数 、 查 询 在 各 个 领域 里 的 分 布 、 用 户 为 了 得 到 一 个 想 要 的 信息 平均 进行 的 查 
询 次 数 、 查 询 词 出 现 的 频率 (热门 程度 ) 、 新 出 现 的 查询 词 ， 等 等 。 这 些 统计 分 析 工 作对 了 
解 用 户 的 搜索 习惯 、 掌 握 熏 情 、 了 解 社会 的 热点 等 等 有 很 大 的 帮助 。 随 着 研究 的 深入 ， 有 很 
多 研究 者 开始 利用 搜索 日 志 来 帮助 改进 搜索 引擎 本 身 , 还 有 的 研究 者 把 它 作 为 一 种 新 的 数据 
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资源 从 中 发 现 有 价值 的 数据 。 比 如 搜狗 输入 法 的 词 库 ， 就 使 用 了 从 用 户 的 搜索 日 志 中 发 现 的 
新 词 ; 而 在 搜索 日 志 上 进行 命名 实体 识别 、 查 询 的 理解 、 挖 据 查 询 词 之 间 的 相似 度 来 实现 查 
询 推 荐 等 等 的 研究 也 越 来 越 多 。 


5 ”信息 检索 的 评价 研究 


评价 问题 一 直 是 检索 领域 的 基础 性 问题 , 涉及 到 检索 的 各 个 方面 , 最 主要 的 研究 工作 集 
中 在 检索 有 效 性 上 面 。 检索 有 效 性 是 根据 返回 结果 中 相关 文档 所 排 的 序 , 对 检索 系统 的 性 能 
给 出 评价 。 评 价 涉及 到 评价 过 程 和 评价 指标 。 


(1) . 评价 过 程 研 究 : 


评价 过 程 的 目标 是 获得 相关 性 判断 。 传 统 的 相关 性 判断 是 通过 人 工 标注 来 完成 。 由 于 进 
行 检索 的 语 料 集 规模 比较 大 , 所 以 对 于 菜 个 特定 的 查询 ， 人 工 来 完全 标注 相关 文档 是 无 法 接 
受 的 。 汇 聚 (pooling ) 方法 提供 了 一 种 解决 途径 。 汇 聚 的 基本 思路 是 : 通过 将 每 个 系统 提交 
的 前 面 的 若干 条 检索 记录 进行 求 并 运算 ， 去 掉 重 复 的 文档 ， 构 成 要 判断 的 文档 集合 。 该 集合 
~ 中 的 文档 被 认为 是 所 有 的 相关 文档 ， 未 进入 该 集合 的 文档 默认 为 是 不 相关 的 。 可 以 看 出 ， 这 
4 种 方法 并 不 能 标注 出 所 有 的 相关 文档 。 但 是 通过 对 评价 结果 的 分 析 , 这 样 的 评价 过 程 对 结果 
的 影响 不 大 ， 所 以 在 TREC 中 得 到 了 广泛 的 应 用 。 


近 些 年 来 , TREC 中 有 关 检 索 有 效 性 评价 的 语料库 变 得 越 来 越 大 , terabye track 和 million 
query track 使 用 的 GOV2 语料库 大 小 为 426G, 包含 文档 25205197 篇 , 对 于 每 个 话题 (topic)， 
一 般 选 前 10000(terabyte track) 或 前 1000(million-query track) 篇 文档 来 评价 检索 性 能 ， 使 用 的 
话题 个 数 为 50 个 (对 terabyte track) 或 1700 个 (对 million-query track)。 通 过 简单 的 计算 可 以 看 
出 ， 即 使 是 使 用 汇聚 方法 ， 要 进行 判断 的 文档 数目 也 很 庞大 ， 因 为 汇聚 方法 中 进行 判断 的 文 
档 之 间 没 有 区 别 ， 需 要 完全 判断 。 能 不 能 尽 可 能 地 减少 人 工 标注 量 呢 ? 答案 是 肯定 的 。 这 方 
面 的 进展 要 归功 于 本 (Ben) 和 贾 维 德 〈Javed) 的 工作 。 评 价 的 目标 本 质 上 是 获得 系统 检索 
性 能 的 相关 性 排序 ， 如 果 可 以 得 到 与 原始 评价 一 致 的 系统 排序 结果 ， 那 么 评价 就 是 有 效 的 。 
1 于 平均 准确 率 〈Average Precision， AP) 的 计算 与 相关 文档 出 现 的 位 置 有 关系 ， 排 在 前 面 


区 的 相关 文档 对 最 终 指标 的 计算 贡献 最 大 , 对 于 系统 间 比 较 获得 差异 也 最 大 , 排 在 后 面 的 文档 
CC 对 系统 比较 产生 的 作用 相对 较 小 。 本 提出 按照 文档 对 系统 比较 的 贡献 来 对 文档 进行 排序 , 按 
9 照 顺序 对 文档 相关 性 进行 标注 。 标 注 到 一 定 程度 可 以 停止 。 本 通过 对 平均 准确 率 公式 的 改写 ， 

将 文档 的 相关 性 看 作 一 个 随机 变量 , 那么 平均 准确 率 也 是 一 个 随机 变量 。 对 于 已 经 判断 的 文 


档 ， 相 关 性 的 值 是 确定 的 。 对 于 未 判断 的 文档 ， 本 设计 了 一 个 基于 序 回归 的 模型 。 文 档 相 关 
性 概率 可 以 通过 在 已 判断 的 文档 上 建立 的 模型 预测 得 到 。 这 样 可 以 算出 每 个 系统 在 每 个 话题 
上 的 平均 准确 率 期 望 值 ， 进 而 可 以 得 到 系统 的 平均 准确 率 (Mean Average Precision，MAP ) 
的 期 望 值 。 系 统 按照 MAP 期 望 值 进行 排序 。 由 于 只 进行 部 分 判断 ， 该 方法 可 以 明显 减少 标 
注 量 ; 另外 设计 合理 的 预测 模型 , 使 预测 得 到 的 文档 相关 性 概率 值 对 最 后 的 评价 排序 可 以 非 
常 鲁 棒 。 贾 维 德 的 方法 则 是 使 用 抽样 的 思路 ， 获 得 样本 来 估计 平均 准确 率 值 。 该 方法 也 可 以 
大 幅度 地 减少 标注 量 。 他 们 的 方法 已 经 被 用 在 了 million query 任务 中 。 

(2) . 评价 指标 的 研究 :、 

在 评价 中 , 一 般 是 对 于 每 个 话题 计算 一 个 评价 指标 。 系统 检索 性 能 的 评价 通过 在 多 个 话 
题 上 取 平 均 来 获得 。 常 用 的 评价 指标 有 AP、R-precision、b-pref、NDCG、inferred AP 等 。 
这 些 指标 分 别 用 来 度量 检索 效果 的 不 同方 面 , 其 中 b-pref 和 inferred AP 从 terabyte track 中 
引入 , 目的 是 在 相关 性 判断 减少 的 情况 下 保证 评价 结果 尽 可 能 与 完全 判断 一 致 。 评价 指标 一 
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信息 检索 研究 现状 简 述 


般 希 望 有 好 的 数学 含义 ， 同 时 可 以 使 比较 结果 稳定 、 重 棒 ， 即 不 易 受 到 相关 性 判 度 改 变 的 影 
响 。 


于 篇 幅 和 能 力 所 限 ， 上 面具 简单 列举 了 信息 检索 研究 的 部 分 现状 。 需 要 指出 的 是 ， 在 
量 技术 被 引入 信息 检索 领域 的 同时 , 信息 检索 技术 也 已 经 逐渐 成 为 一 项 基础 技术 , 被 研究 
者 引入 其 他 领域 。 如 有 人 把 信息 检索 中 的 PageRank 技术 引入 到 软件 工程 领域 ， 取 得 了 令 人 
瞩目 的 成 果 。 


6 小 结 


最 后 ， 我 们 简单 地 对 当前 的 信息 检索 研究 进行 总 结 ， 当 前 信息 检索 研究 存在 着 几 个 基本 
特点 : 


(1) . 以 用 户 为 中 心 、 以 提高 用 户 交 互 体验 为 目标 。 信 息 检 索 应 用 的 最 终 目标 是 满足 用 户 
的 需求 ， 所 以 必须 以 此 作为 研究 的 最 终 目标 。 现 代 信息 检索 研究 中 更 强调 用 户 的 中 
心地 位 ， 并 以 此 驱动 技术 研究 ， 可 以 说 现代 信息 检索 呈现 出 个 性 化 的 趋势 。 


(2) . 集中 众人 智慧 (Crowd of Wisdom)。 从 资源 来 看 ， 不 论 是 微 博 、 维 基 百 科 、 开 放 式 目 
录 管 理 还 是 搜索 日 志 ， 都 集中 了 大 量 用 户 的 智慧 。 从 这 些 数 据 中 ， 可 以 提取 用 户 的 
共性 ,来 提高 信息 检索 的 结果 精度 。 从 研究 方法 上 看 ， 基 于 用 户 协 同 (Collaboration) 
也 就 是 利用 用 户 相 似 性 的 方法 不 论 是 在 过 滤 还 是 在 检索 上 都 被 视 为 最 重要 的 手段 
a 


(3) . 新 的 资源 、 新 的 平台 催生 了 一 系列 新 的 研究 点 。 比 如 ， 微 博 欣 掘 和 搜索 、 评 论 倾向 
性 分 析 、 移 动 搜索 、 广 告 推荐 等 等 。 这 些 新 的 研究 点 不 仅 具 有 极 大 的 实际 应 用 价值 ， 
也 有 很 大 的 挑战 性 。 它 们 大 大 丰富 了 信息 检索 的 研究 。 依 托 社会 化 资源 的 社会 化 搜 
索 正 广泛 受 人 瞩目 。 


(4) . 以 大 规模 数据 的 分 析 和 学 习作 为 主要 手段 。 现代 信 息 检索 研究 中 ， 更 强调 用 户 的 中 
心地 位 ， 大 规模 的 数据 分 析 和 学 习 是 必 不 可 少 的 手段 。 目 前 的 信息 检索 研究 融入 了 
来 自 各 领域 的 技术 ， 也 吸引 了 来 自 各 领域 的 研究 人 员 。 可 以 预见 ， 下 一 步 信 息 检 索 
的 研究 会 更 加 丰富 多 彩 。 
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